2月6日,OpenAI總裁Greg Brockman在X上公開發了一條面向全公司工程團隊的帖子,設了一個deadline:到3月31日,任何技術任務,工程師的第一工具應該是agent,而不是編輯器或終端。這是OpenAI對自己下的動員令。如果只看這句話,你可能會覺得又是一條矽谷式的願景聲明。但接下來六周發生的事情表明,Brockman不是在喊口號。OpenAI的Coding Agent平台Codex,正在經歷一輪罕見的產品衝刺,密度之高,節奏之快,甚至讓一些長期關注AI編碼工具的開發者開始重新審視自己的工具鏈。與此同時,Codex在程式設計師群體中的熱度和口碑也在肉眼可見地上升。一切動作都指向“狙擊”Anthropic 如日中天的Claude Code。六周的瘋狂迭代拉一下時間線就能感受到這個節奏。2月2日,Codex桌面App發佈(macOS),OpenAI同時宣佈向ChatGPT免費和Go使用者開放Codex,所有付費使用者的速率限制翻倍。2月5日,GPT-5.3-Codex發佈,OpenAI稱它為"第一個幫助創造了自身的模型"。同一天,Anthropic發佈Claude Opus 4.6。2月12日,Codex-Spark發佈,與AI推理硬體公司Cerebras合作,推理速度超過每秒1000 tokens。OpenAI的說法是,“當模型能力越來越強,互動速度就成了明確的瓶頸。”2月14日,OpenClaw創始人Peter Steinberger宣佈加入OpenAI。據Pragmatic Engineer報導,Steinberger用Codex編寫了OpenClaw的全部程式碼,偏好長時間運行的agentic loop。Sam Altman在X上稱他為“天才”,說他將“推動下一代personal agents”。3月4日,Codex桌面App登陸Windows。3月5日,GPT-5.4發佈,是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型,在Codex和API中支援100萬token上下文。3月6日,Codex Security進入research preview。這是OpenAI推出的應用安全代理,前身為內測階段的Aardvark,能夠分析程式碼倉庫、建構項目級威脅模型、在沙盒中驗證漏洞並提出修復建議。過去30天的beta測試中,它掃描了超過120萬次commits,發現792個critical等級漏洞和超過10000個高危問題,覆蓋OpenSSH、GnuTLS、Chromium等重量級開放原始碼專案。誤報率降低超過50%,噪音降低84%。使用資料也在同步攀升。Sam Altman在X上確認,Codex的周活使用者自年初以來增長超過三倍;Codex團隊負責人Thibault Sottiaux(Tibo)告訴Pragmatic Engineer的Gergely Orosz,1月以來它的使用量增長了5倍,周活開發者超過100萬。Tibo還在播客中提到,Super Bowl周日播出的Codex廣告讓系統幾乎立即承受了巨大負載。六周,七次重大產品動作,這成了OpenAI在產品上最激進的衝刺之一。要理解這個節奏,一方面要看供給側的變化。GPT-5系列模型的agent能力在過去幾個月出現了質的飛躍,從上下文窗口、工具呼叫到長時間自主執行,模型本身的能力到了一個可以支撐Coding Agent這個產品形態的臨界點。另一方面,需求側的訊號同樣強烈。據SemiAnalysis報導,Anthropic的Claude Code已經做出25億美元的年化收入,佔其企業收入的一半以上。Claude Code用真金白銀證明了Coding Agent可以成為AI公司的核心收入引擎。對於估值據報已達數千億美元的OpenAI來說,放棄這個賽道不是一個現實的選項。根據SemiAnalysis的預測AnthropicARR增速一度超過OpenAI時間點上的貼身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天發佈。Codex Security和Claude Code Security幾乎同期推出。這種節奏本身就是訊號,兩家公司正在把Coding Agent平台視為正面戰場。開發者開始從Claude Code的單一模式變成混合模式在很長一段時間,Anthropic旗下的Claude Code看起來似乎已經沒有了對手,使用者對它的依賴變得越來越重。而OpenAI顯然不想讓Anthropic 這麼舒服。在Codex的一通激進衝刺後,開發者社區的反應也開始發生一些變化。過去一個月,Reddit和Hacker News上關於Codex和Claude Code的討論,出現頻率最高的詞不是更好或替代,而是stacking。也就是說,越來越多的開發者不是在兩者之間選擇,而是同時使用。Calvin French-Owen是一個典型案例。他是Segment聯合創始人,曾在OpenAI參與Codex web產品的發佈,同時也是Claude Code的深度使用者。他在今年2月寫的一篇部落格裡說,自己選擇工具的核心標準是“我有多少時間,以及我想讓它多自主地跑”。他的日常工作流是用Claude Code做規劃、編排終端和管理git操作,然後切到Codex做實際編碼。他說Opus在跨上下文窗口的工作中效率更高,會同時啟動多個子代理平行探索程式碼庫;而Codex在長時間自主編碼任務上更穩定。Reddit上也出現了更具體的分工模式。有開發者詳細描述了一個五段式workflow,先讓Claude Code出計畫,再讓Codex review計畫,然後由Claude實施,最後交給Codex做code review和QA迭代。還有人直接把Claude Code和Codex串成了一個CLI bridge,因為手動在兩者之間複製貼上太累了。一篇社區分析總結了500多條Reddit評論後的結論,Claude Code在一組小樣本盲測中勝率達到67%,質量更高;但Codex 20美元的套餐能編碼一整天不斷,而Claude Code同價位十幾個prompt就用完了。“Claude Code質量更高但用不完,Codex稍弱但全天能用”,這是2026年3月開發者社區最真實的共識。在Cursor官方的benchmark中,GPT系列整體領先其他模型。開發者社區還流傳著一個比喻來描述兩者的氣質差異,Claude像美國人,適合做充滿創造力的探索和頭腦風暴,Codex像德國人,代表極致的效率和專注執行。“它就像一條咬住骨頭不放的狗,非常固執,會一直嘗試直到解決問題。”當然也有反面聲音。Hacker News上有開發者說Codex對自己來說“每一項都比Claude Code差”,尤其是code review會製造看似合理但實際不存在的問題,他最後只把Codex用來覆核Claude的產出。但大方向已經很明確了,社區討論正在從那個更好就用那個,變成兩個都用,各佔一個工位。比的不再是benchmark,是誰是更實用的產品只看模型benchmark,你不太容易理解Codex為什麼起勢。在SWE-Bench這類編碼評測上,Claude Opus 4.6仍然領先。真正讓Codex拉開差異的地方在別處,OpenAI正在圍繞它建構一整套工程系統。Orosz今年2月發表了一篇對Codex團隊的深度報導。其中最引人注目的事實是,Codex超過90%的程式碼是由Codex自己編寫的。Anthropic方面也有類似的說法,Claude Code的建立者Boris Cherny告訴Orosz,Claude Code的資料大致相當。當然,這裡的90%需要打個折扣理解,在一個成熟項目中,樣板程式碼、測試用例、常規重構佔了大量行數,核心架構決策仍然由人來做。但兩家AI實驗室都在用自己的coding 工具來編寫自己的coding 工具,這種自舉本身就說明了這些工具已經深度嵌入了日常工程流程。Codex 的基本工作原理Codex團隊在工程組織層面走得更遠。Orosz的報導描述了一種新的工作方式,Codex團隊的典型工程師同時運行4到8個平行agent,分別處理feature開發、code review、安全審計、程式碼庫理解、bug修復等任務。工程師的角色正在從寫程式碼的人變成管理agent的人。技術選型上,Codex CLI選擇了Rust(Claude Code使用的是TypeScript)。團隊負責人Tibo給出的理由不僅是性能和正確性,還有工程文化,選擇Rust是為了給團隊設定一個高工程標準,同時減少對npm依賴生態的依賴。他們甚至招募了Rust終端UI庫Ratatui的維護者全職加入團隊。更值得關注的是分層程式碼審查機制。Codex團隊訓練了一個定製的code review模型,據Tibo說約9/10的評論能指出有效問題。審查分兩層,非關鍵程式碼在AI review後可以直接merge,核心agent程式碼和開源元件仍然要求強制人工審查。這套機制的意義在於,審查本身開始分層了。還有兩個細節能說明Codex正在從工具走向系統。Codex可以運行自己的完整測試套件來測試自身;團隊還設定了夜間巡檢,讓Codex自動掃描程式碼庫並生成待審修復建議,工程師每天早上進公司時就有一批修復等著review。一家名為Wonderful的AI開發公司的首席架構師在今年3月寫了一篇文章,描述了他們四個月前禁止手動coding後的經驗。他對兩個工具的定位是,Codex是坐在房間後面戴耳機的工程師,默默讀完你整個程式碼庫15分鐘才寫第一行程式碼,Claude則更有產品感,更擅長判斷什麼感覺對。他們把Codex用於低延遲系統工作、即時語音管線、性能敏感程式碼,Claude則用於UI和前端。從coding工具到Agent平台拉遠來看,Codex六周衝刺的方向指向一個更大的野心。Peter Steinberger的加入是一個人事訊號。他日常同時平行5到10個agent,加入OpenAI後的方向是下一代personal agents,不是coding工具。OpenAI正在用Codex作為agent戰略的入口。Codex Security則是另一個方向的延伸。當Codex從幫你寫程式碼走向幫你審計安全,它的定位就已經變了。GPT-5.4進一步加速了這個轉變。作為OpenAI第一個具備原生computer use能力的通用模型,它在Codex中不僅能寫程式碼,還能操作電腦、跨應用執行工作流。配合正在成型的外掛/skills生態系統和企業級權限管理,Codex的輪廓越來越像一個AI原生的開發平台。Codex團隊在Every的播客中透露了他們眼中的下一個瓶頸,就是程式碼審查。模型生成程式碼的速度已經遠超人類review的速度,驗證產出的正確性成了最緊迫的問題。他們已經在嘗試讓模型通過重現使用者操作路徑來“證明”修復有效,而不是讓人類逐行讀程式碼。這些野心和Claude Code已經越來越清楚的發展方向有很多重合,在從Claude Code那裡迅速搶走了一些使用者和使用場景之後,Codex的勢頭正在起來。回到Greg Brockman 2月6日的那條帖子。他設的deadline是3月31日,目前距離deadline還有兩周多,而從過去六周的節奏來看,Codex的衝刺還遠沒有結束。OpenAI把曾經在模型上呈現出的狠勁兒和卷王的氣質,都放到了Codex上,接下來它和Claude code之間短兵相接的故事,會更精彩了。 (硅星人Pro)